Библиотека data scientist’а | Data Science Machine learning анализ данных машинное обучение Telegram Web

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🥴 Средний разработчик меняет работу каждые 1,5 года

И это не потому, что мы такие непостоянные. Просто рынок показывает свое истинное лицо быстрее, чем успевают напечатать визитки.

Поэтому мы собираем инсайды от тех, кто находится в окопах digital-трансформации каждый день. От джуниоров, которые только въезжают в профессию, до сеньоров, повидавших всякого.

😳 О чем говорим откровенно:
— Job-hopping и что за этим стоит
— Red flags, которые мгновенно убивают мотивацию
— Реальные источники вакансий (не те, что рекламируют)
— Боль от общения с рекрутерами
— Сколько этапов отбора — норма, а сколько — издевательство

Когда мы объединим опыт сотен IT-специалистов, получится настоящая карта того, как устроена индустрия. Не по версии HR-отделов, а по версии тех, кто пишет код, тестирует продукты и двигает технологии вперед.

🚀 Участвовать в исследовании → https://clc.to/9aaXVg

1.5K views07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

интересно, сработает ли 😄

Библиотека дата-сайентиста #развлекалово

1.5K views09:12

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

1.4K views13:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✈️

Свежие новости из мира AI и Data Science

👍 Технологии, модели и тренды:
— Google Gemini 2.5 Pro — новая превью-версия самой мощной модели Google, уже вырвалась в лидеры LMArena и WebDev Arena. Меньше месяца после последнего релиза — и снова прорыв.
— ElevenLabs v3 — самая выразительная AI TTS-модель, поддержка множества языков, включая арабский, африкаанс и мандарин. Новый стандарт для голосовых приложений.
— OpenAI и ChatGPT-5 — разбираем слухи, утечки и возможные фичи следующей версии ChatGPT. Что нового и чего ждать?

🧠 Исследования, статьи и практики:
— AI лучше человека в тестах на эмоциональный интеллект — исследование Женевского и Бернского университетов: ChatGPT и другие ИИ превосходят людей в распознавании и интерпретации эмоций.
— Сколько действительно запоминают LLM-модели? — методика оценки «запоминания» vs. «обобщения» в языковых моделях.
— Themis AI от MIT — стартап, обучающий ИИ понимать, чего он не знает. Подход к контролю неопределённости.
— ICLR 2025 и доверие к ИИ — новые подходы к обучению на субъективных данных, оценке качества моделей и внедрению человеческих суждений.

🎙 AI в обществе и индустрии:
— Demis Hassabis (DeepMind): «AI изменит рынок труда за 5 лет» — CEO Google DeepMind выступил на Google I/O и подкасте Hard Fork, обозначив AGI как ключевую технологию будущего.
— MCP-серверы: что это и зачем они нужны? — скоро на слуху у всех, особенно в проектах с тяжёлыми ML-нагрузками.

📘 Обучение, процессы и инструменты:
— Лучшие нейросети для суммаризации текста — подборка инструментов для пересказа, анализа и работы с текстами.
— Как наладить работу в кросс-функциональной команде Data Science + Dev — опыт Lamoda в совмещении ML и инженерии.

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

1.3K views12:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❗Вакансии «Библиотеки программиста»

Привет! Мы ищем контент-менеджеров, которые будут вести наши телеграм-каналы о разработке.

👾 Требования:
— знать принципы залетающего контента
— разбираться в темах, связанных с разработкой

Большим плюсом будет навык программирования на каких-либо языках.

✨ Условия:
— удаленка
— частичная занятость
— сдельная оплата в зависимости от количества задач

🔥 Оставляйте отклик, и мы свяжемся с вами: https://forms.gle/o4BZnsQ526JoqsCq9

1.5K views16:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Библиотека задач по Data Science

1.3K views07:25

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

130 voters1.3K views07:25

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚡️

Scikit-learn 1.7 — свежий релиз с полезными улучшениями

✅

Что нового

• Красивее и понятнее отображение пайплайнов
Теперь в HTML-представлении моделей отображаются параметры, не-дефолтные подсвечиваются, есть копирование для grid search'ей.

• Custom валидация для HistGradientBoosting
Поддержка X_val, y_val прямо в .fit() + трансформация вал.набора через transform_input в пайплайне.

• ROC-кривые из cross-validation
Теперь RocCurveDisplay.from_cv_results() — удобно рисовать сразу несколько ROC-кривых.

• Поддержка Array API (PyTorch, CuPy и др.)
Больше функций теперь дружат с массивами по стандарту array API — можно использовать альтернативы NumPy без доп. пакетов.

• MLP теперь более согласованный
MLPRegressor поддерживает loss='poisson', а также sample\_weight в обоих MLP-классах.

• Переход на sparse arrays
Все модели, работавшие с sparse matrix, теперь совместимы и с sparse arrays — шаг навстречу будущему SciPy.

📥 Установить:

pip install --upgrade scikit-learn

✅

Полный changelog — в release notes

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

1.3K views12:22

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💫

Топ-вакансий для дата-сайентистов за неделю

Data Engineer / Embedded Software Engineer —‍ от 300 000 до 387 000 ₽ , удалёнка

MLOps-инженер —‍ от 250 000 ₽, гибрид (Москва)

Data Analyst, гибрид (Екатеринбург)

Data Scientist —‍ 150 000₽, удалёнка

Руководитель группы анализа данных —‍ от 400 000 —до 500 000 ₽, гибрид (Москва)

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

1.3K views17:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚩

Шпаргалка: стратифицированная выборка

Выборка — важный этап любого исследования. Один из надёжных способов — стратифицированная выборка, при которой вся совокупность делится на подгруппы (страты), и из каждой отбирается выборка.

Это особенно полезно, когда необходимо учесть особенности разных сегментов данных.

Преимущества стратифицированной выборки:
🟠 Точная репрезентативность — каждая группа учтена, искажения минимальны
🟠 Более высокая точность — за счёт меньшей дисперсии внутри страт
🟠 Экономия ресурсов — меньший объём выборки при той же достоверности

Сложности, с которыми можно столкнуться:
🔴 Сложная реализация — нужно заранее определить страты
🔴 Риск ошибок — неверная классификация испортит результаты
🔴 Ограниченность — не применим, если нет явных подгрупп

Варианты стратифицированной выборки:
🟣 Пропорциональная — каждая страта представлена в выборке по доле в популяции
🟣 Равномерная — одинаковое число объектов из каждой страты
🟣 Оптимальная — учитывает разброс и стоимость сбора: больше данных — там, где это выгоднее
🟣 Непропорциональная — размер выборки по каждой страте определяется задачей анализа (например, усилить редкие подгруппы)

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

1.2K views06:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😡 А вас тоже бесят облачные сервисы?

Согласитесь, статус отношений с облаками — все сложно. Но что, если можно изменить правила игры?

Мы готовим нечто особенное в мире облачных технологий, но сначала хотим услышать правду от тех, кто реально работает с облаками каждый день.

❓Что мы хотим узнать:
— Для чего вы реально используете облако?
— Чего катастрофически не хватает прямо сейчас?
— Что бесит больше всего? (можно материться)
— Как выбираете провайдера — по цене или по любви?
— и тому подобное

По результатам опроса мы подготовим исследование без маркетингового мусора и вы узнаете, как обстоят дела у коллег.

⚡️Время на опрос: меньше, чем на кофе-брейк. Жмите → https://clc.to/nboYDA

1.2K views10:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Нейросети для дата-сайентиста: свежий гид по инструментам

Мир нейросетей меняется каждый день — выбрать подходящий инструмент для задач Data Science непросто.

Мы собрали в статье то, что действительно работает: какие модели помогают автоматизировать рутину, ускоряют кодинг и дают ощутимый буст продуктивности.

📊 Что выбрать под вашу задачу — читайте в обзоре!

📌 Подробнее: https://proglib.io/sh/yq0MaQtHrn

Библиотека дата-сайентиста #буст

1.1K views17:47

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👌 Как найти и избежать утечек данных: пошаговое руководство

Утечки данных — одна из самых распространённых и коварных ошибок в построении моделей машинного обучения.

✅ Вот как шаг за шагом выявить и предотвратить утечки в проектах.

1️⃣

Понимайте, что такое утечка данных

Утечка — когда модель получает данные из будущего или из «ответов», которых не должно быть во время обучения. Вот основные типы:

✅

Целевая утечка (Target Leakage): признаки напрямую или косвенно содержат информацию о целевой переменной.
📝Пример: использовать «сумму страховых выплат» при прогнозе повторной госпитализации.

✅

Утечка после события (Post-Event Leakage): признаки формируются на основе данных, которые появляются после момента предсказания.
📝Пример: использовать данные после завершения полёта для прогнозирования аварии во время полёта.

✅

Утечка при разбиении данных (Train-Test Leakage): когда информация из тестовой выборки просачивается в тренировочную. Включает:
— анализ всех данных до разделения (корреляции, масштабирование)
— дубликаты и пересечения между train и test
— нарушение временного порядка для временных данных
— неправильное кросс-валидационное разделение

✅

Утечка по идентификаторам (Entity Leakage): когда уникальные ID встречаются в обеих выборках, и модель запоминает их, а не закономерности.
📝 Пример: номер самолёта в train и test.

2️⃣

Внимательно выбирайте признаки

✅ Удаляйте признаки, которые содержат информацию, недоступную на момент предсказания (например, отчёты после события).
✅ Будьте осторожны с ID и уникальными идентификаторами — модель может просто «запомнить» их.

3️⃣

Соблюдайте правильный порядок работы с данными

✅ Сначала разделяйте данные на тренировочные и тестовые, до любых вычислений и преобразований.
✅ Для временных данных обязательно сохраняйте хронологический порядок, чтобы не давать модели информацию из будущего.
✅ Избегайте дублирования и пересечений между train и test.

4️⃣

Правильно стройте пайплайны

✅ Масштабирование, кодирование, уменьшение размерности (PCA и др.) обучайте только на тренировочных данных.
✅ В кросс-валидации трансформации должны выполняться внутри каждого фолда отдельно.

5️⃣

Анализируйте только тренировочные данные

✅ Корреляции, статистики и подбор параметров делайте только на тренировочных данных.
✅ Не смотрите на тест, пока не завершите обучение и отладку.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

968 views07:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😎 Пока все говорят об AI — мы учим строить системы, которые работают за вас

Что отличает топового дата-сайентиста от новичка? Умение не просто обучать модели, а создавать системы, которые принимают решения автономно. AI-агенты — это следующий уровень в DS, и мы запускаем курс по их разработке!

⚡️Если вы давно думали о прокачке скиллов или повышении грейда — сейчас самое время, потому что цена на курс вырастет уже 14 июня.

Спикер нашего нового курса — Никита Зелинский, Chief Data Scientist МТС. Его посты в канале @datarascals бьют в актуальные проблемы дата-спецов:

— Как за неделю окупить годовую зарплату одним COALESCE и получить свой quick win
— Разбор катастрофы с Precision@K или почему ваши метрики врут
— Комплексный гайд по антифроду

Поэтому на курсе «AI-агенты для DS» мы научим вас строить системы, которые не просто работают в демо, а выдерживают нагрузку реального бизнеса.

❗До повышения цены осталось 3 дня — забронируйте место сейчас

1.1K views13:31

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Больше данных, выше точность 🤣

Библиотека дата-сайентиста #развлекалово

1.1K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📌 Промт дня: как обрабатывать пропущенные значения в данных

Пропуски в данных — не просто шум, а важный сигнал. Как вы их обработаете — влияет на всё: от качества модели до честности метрик.

🎯 Вот промт, который можно дать ChatGPT, чтобы продумать стратегию:

У меня есть датафрейм с пропущенными значениями. Помоги:

– Проанализировать, в каких признаках есть пропуски и сколько их
– Разделить признаки на числовые и категориальные
– Предложить разумные стратегии для каждого типа (например: среднее, медиана, мода, отдельная категория, KNN, IterativeImputer)
– Добавить индикаторные признаки “was\_missing”, если это может быть полезно
– Проверить, связаны ли пропуски с целевой переменной
– Посоветовать визуализации, чтобы увидеть структуру пропусков (heatmap, matrix и т.п.)
– Указать, какие признаки стоит удалить из-за большого числа пропусков

💡 Подходит для ChatGPT в режиме кода или анализа пайплайна. Используйте этот промт, чтобы сэкономить время и продумать работу с пропусками системно.

Библиотека дата-сайентиста #буст

979 viewsedited 07:12

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

787 views18:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚨 Pointblank — мощный инструмент для валидации данных

Если вы дата-сайентист, аналитик или инженер данных — эта библиотека точно заслуживает вашего внимания.

С интуитивным и цепочечным API, Pointblank позволяет:
— запускать точечные проверки качества данных,
— отслеживать критичные ошибки,
— автоматически формировать интерактивные отчёты,
— интегрироваться с Slack и другими системами.

Идеально для пайплайнов на pandas, polars или ibis.

✅ Пример базовой валидации:

import pointblank as pb

validation = (
   pb.Validate(data=pb.load_dataset("small_table"))
   .col_vals_gt(columns="d", value=100)         # Значения > 100
   .col_vals_le(columns="c", value=5)           # Значения <= 5
   .col_exists(columns=["date", "date_time"])   # Проверка наличия колонок
   .interrogate()                               # Выполнить валидацию
)

validation.get_tabular_report().show()

✅ Реальный пример на Polars:

import pointblank as pb
import polars as pl

sales_data = pl.read_csv("sales_data.csv")

validation = (
   pb.Validate(
      data=sales_data,
      tbl_name="sales_data",
      label="Валидация реальных данных",
      thresholds=(0.01, 0.02, 0.05),
      actions=pb.Actions(
         critical="Критичная ошибка качества данных на шаге {step} ({time})."
      ),
      final_actions=pb.FinalActions(
         pb.send_slack_notification("https://hooks.slack.com/services/your/webhook/url")
      ),
      brief=True,
   )
   .col_vals_between(columns=["price", "quantity"], left=0, right=1000)
   .col_vals_not_null(columns=pb.ends_with("_id"))
   .col_vals_regex(columns="email", pattern="^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}$")
   .col_vals_in_set(columns="status", set=["pending", "shipped", "delivered", "returned"])
   .conjointly(
      lambda df: pb.expr_col("revenue") == pb.expr_col("price") * pb.expr_col("quantity"),
      lambda df: pb.expr_col("tax") >= pb.expr_col("revenue") * 0.05
   )
   .interrogate()
)

# HTML-отчёт можно открыть в браузере:
validation.get_tabular_report().show("browser")

🛠 Установка:

pip install pointblank
# или с нужным бэкендом:
pip install "pointblank[pl]"       # с Polars
pip install "pointblank[pd]"       # с Pandas
pip install "pointblank[duckdb]"   # с DuckDB (через Ibis)
pip install "pointblank[postgres]" # с PostgreSQL

✅

Под капотом

Pointblank работает с Polars, Pandas и Ibis (через Narwhals) — то есть вы можете валидировать данные не только из CSV, но и из баз данных (PostgreSQL, MySQL, DuckDB и др.).

👉 Ссылка на проект: https://clc.to/Ep7oDQ

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

453 views07:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🌧️ Облачная терапия: время выговориться!

Знакомая ситуация? Покупаете облако как BMW, а получаете телегу с квадратными колесами. Обещают 99.9% uptime, а сервер падает на релизе. Техподдержка отвечает через сутки фразой «попробуйте перезагрузить».

Пора узнать, как обстоят дела с облаками на самом деле. Поэтому мы собираем ваши реальные истории про облачные сервисы.

🤫 О чем спросим:
— Зачем вам вообще это облако нужно
— Какие косяки достали до печенок
— Сколько денег утекает в никуда ежемесячно
— Что должно случиться, чтобы вы сменили провайдера
— И еще пару каверзных вопросов

⏱️ 2 минуты честности = большое исследование без воды → https://clc.to/nboYDA

221 views09:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

242 views09:00

2025/06/13 09:53:21
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tg-me.com/buyppe/webview?embed=1" title="Telegram Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>